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Storm 下 基于 最 佳 并 行 度 


(重庆 邮电 大 学 计算 机 科学 与 技术 学 院 , 重庆 400065) 


摘 要 : 开源 分 布 式 实时 计算 框架 Storm 在 互联 网 、 金 融 、 电 子 商 务 等 领域 得 到 了 广泛 应 用 。Storm 上 默认 采用 轮 询 的 调 
度 策略 ， 且 依赖 用 户 对 Topology 任务 的 并 行 度 配 置 ， 当 配置 不 合理 时 依然 会 造成 Topology 处 理 时 延 增 大 、 吞 吐 量 降 
低 等 问题 。 针 对 该 问题 ， 提 出 了 一 种 Storm 下 基于 最 佳 并 行 度 的 贪心 调度 算法 ,调度 时 先 求 解 Topology 任务 中 各 组 件 
的 最 佳 并 行 度 ， 再 采用 贪心 策略 进行 调度 ， 以 最 小 化 节点 间 的 网 络 通信 开销 。 通 过 与 默认 调度 算法 、 线 上 调度 算法 和 
热 边 调度 算法 进行 实验 比较 ， 结 果 表 明 算 法 能 够 有 效 降 低 Storm 处 理 时 延 ， 提 高 系统 吞吐 量 和 资源 利用 率 。 
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Greedy scheduling algorithm based on best parallelism in Storm 


Xiong Anping, Duan Hangbiao, Jiang Yaxiong 
(College of Computer Science & Technology, Chongqing University of Posts & Telecommunications, Chongqing 400065, China) 


G Abstract: Open-source distributed real-time computing framework Storm in the Internet, finance, e-commerce and other fields 
= 和 has been widely used. By default, Storm uses the polling scheduling policy and relies on the user's configuration of Topology 


tasks in parallel. When the configuration is unreasonable, Storm still causes delays in Topology processing and decreases 


throughput. To solve this problem, this paper proposes a Greedy Scheduling Algorithm based on best parallelism in Storm. When 
scheduling, the best parallelism of each component in Topology task is solved first, and then greedy policy is adopted to minimize 
the network communication between nodes. Compared with the default scheduling algorithm, the online scheduling algorithm 
and the hot-side scheduling algorithm, the results show that the algorithm can effectively reduce the Storm processing delay and 
improve the system throughput and resource utilization. 
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在 调度 中 都 依赖 于 用 户 配置 的 Topology 任务 , 当 配 置 不 当时 会 
严重 影响 Topology 的 执行 效率 ， 造 成 Tuple 的 处 理 时 延 增加 ， 
大 数据 背景 下 ， 数 据 内 涵 和 价值 时 效 性 越 来 越 重要 ， 数 据 。” 吞 叶 量 降低 和 资源 的 浪费 。 
的 流 式 特征 也 越 来 越 显 著 ， 而 流 式 计算 的 重要 性 也 越 来 越 突出 本 文 的 主要 贡献 如 下 :a) 利 用 Topology 中 各 组 件 间 关 联 性 ， 
1H。S4、Spark、Storm 等 流 式 计算 框架 的 推出 为 流 式 数据 实时 在 满足 后 一 组 件 恰 好 能 完全 处 理 完 前 一 组 件 所 生成 的 数据 下 ， 
处 理 提供 了 有 效 途径 。Storm 是 个 实时 的 、 分 布 式 的 以 及 具备 。 求解 到 Topology 中 各 组 件 的 最 佳 并 行 度 ， 来 优化 用 户 初始 对 
高 容错 的 分 布 式 实时 系统 中 ， 以 其 实时 性、 高 效 性 BI， 被 广泛 。 ”Topology 并 行 度 配置 不 佳 的 问题 :b) 基于 Topology 各 组 件 最 侍 
六 用 于 国内 外 如 百度 、 阿 里 巴巴 、Twitter 等 互联 网 企业 。 但 。 ”并 行 度 , 采用 贪心 策略 在 保证 节点 CPU 不 超载 的 情况 下 进行 调 
Storm 在 实际 部 署 应 用 中 器, 存在 诸如 Nimbus 单 节点 、 Tasks 共 ” 度 ， 将 通信 频率 高 的 Executor 尽 可 能 的 分 配 到 同一 节点 ， 从 而 
享 Worker 相互 干扰 、 反 压 机 制 、 集群 节点 间 的 网 络 通信 开销 大 来 最 小 化 节点 间 的 网 络 通信 开销 ， 并 提高 节点 的 资源 利用 率 。 
等 问题 。 其 中 ， 高 效 的 调度 策略 可 以 有 效 缓解 延迟 、 春 电 
负载 均衡 等 问题 ， 成 为 提升 系统 效率 的 关键 。 1 ”相关 工作 
作 
现 有 调度 算法 如 线 上 调度 算法 、 热 边 调 度 算法 ， 关 注 了 Storm 中 用 户 提交 的 Topology 任务 是 一 个 有 向 无 环 图 ， 
Storm 中 默认 调度 策略 中 集群 节点 间 网 络 通信 开销 的 问题 ， 但 。 ”中 节点 表示 计算 任务 又 称 做 Component (组 件 ) ， 边 描述 节点 
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录用 和 熊 安 萍 ， 等 : Storm 下 基于 最 佳 并 行 度 的 贪心 调度 民法 
间 的 数据 流向 回 。Component 之 间 交 换 的 数据 单元 称 做 Tuple。 定义 2 Tuple 的 平均 处 理 时 间 : 
Storm 中 有 两 种 类 型 的 组 件 : Mh 
a)Spout: 数据 流 的 源头 ， 读 取 待 处 理 数据 ， 然 后 持续 不 断 号 Too CO) 
avg N 


tuple 


地 发 射 Tuple 到 Topology 中 。 

b)Bolt: 接收 Spout 或 其 他 Bolt 发 送 的 Tuple， 并 按照 用 户 ” 其 中 : No 表示 一 个 时 间 周 期 内 所 有 组 件 处 理 的 Tuple 数量 ; 
定义 好 的 方式 来 处 理 Tuple, 比如 将 数据 持久 化 到 磁盘 , 执行 过 
滤 、 聚 集 等 函数 操作 。 


pa jus 表示 处 理 Nov 个 Tuple 所 花费 的 时 间 ; 


Component 的 运行 时 实例 ， 称 做 Task， 数 量 固定 且 由 用 户 由 式 (1) (2) 得 
在 Topology 中 配置 。 在 Storm 集群 中 ， 每 个 Supervisor 可 以 启 Ee @) 
、 re i 
动 多 个 Worker 进程 , Worker 进程 运行 着 Topology 的 多 个 线程 ， Ni 


ts 


尔 Topology 的 线程 为 Executor。Executor 用 于 运行 组 件 的 实例 式 (3) 知 ， 减 少 节点 间 的 网 络 通信 ， 能 降低 tw ， 而 当 
Task， 不 同 组 件 的 Task 只 能 运行 于 不 同 的 Executor 中 四 ， 其 中 Topology 配 置 不 当时 ,可 能 会 造成 前 一 组 件 发 送 的 Tuple 较 快 ， 
运行 该 组 件 Task 的 Executor 线程 数目 ， 称 其 为 该 组 件 的 并 行 使 得 Tuple 不 断 宗 积 , 造成 fwwe 和 zee 增 大 ,从 而 使 得 Tuple 平 


度 。 均 处 理 时 延 增 大 。 
在 Storm 调度 算法 方面 ， 业 界 已 有 许多 相关 研究 : Aniello 定义 3 Topology 中 各 组 件 内 Executor 的 时 效 因子 TF, 表 

等 人 四 提出 了 一 种 将 相互 通信 频率 高 的 Executor 调度 到 同一 个 。” 示 当 前 组 件 中 的 Executor 在 时 间 周 期 内 的 繁忙 程度 为 

slot 上 ， 从 而 减少 网 络 通信 的 调度 算法 。Xu 等 人 四 提出 一 种 基 ws 

于 负载 均衡 的 调度 算法 ， 以 减少 网 络 通信 开销 。 将 Executor 按 TF (4) 

照 traffic load 降序 排列 ， 然 后 按 序 将 Executor 分 配 到 负载 最 轻 ee 

的 slot 上 , 并 保证 每 个 Worker 节点 的 任务 量 不 会 过 载 。 Peng 等 其 中 :，Neeowor 表示 当前 组 件 中 Executor 的 并 行 度 ; 了 表示 


人 9 中 提出 一 种 在 最 大 化 资源 利用 率 下 减少 网 络 通信 的 调度 。 第 i 个 时 间 周 期 ，NG.wrw 表示 在 时 间 周 期 到 内 当前 组 件 中 第 j 
算法 。 通 过 将 Task 映射 到 Worker 节点 ， 使 所 有 的 资源 请 求 都 个 Executor 所 处 理 的 Tuple 数目 ， tonoo 表示 在 时 间 周 期 7 内 
能 够 得 到 满足 并 且 各 节点 不 会 出 现 资源 过 载 。Xiong 等 人 00 提 当前 组 件 中 第 j 个 Executor 的 Tuple 平均 处 理 时 间 。 
出 一 种 基于 热 边 的 调度 算法 , 将 热 边 及 关联 的 热 边 调度 到 同一 TF 值 越 大 ， 则 表明 该 组 件 的 Executor 越 繁忙 ， 即 Tuple 流 
节点 来 降低 节点 间 的 网 络 通信 开销 。Long 等 人 0 结合 Storm 的 速 过 快 ，Executor 一 直 忙 于 处 理 Tuple 流 ， 当 TF>0.8 时 053， 可 
不 同 应 用 场景 ， 如 恢复 历史 调度 任务 、 单 节点 任务 调度 、 资 源 能 形成 数据 流 处 理 瓶 颈 。 
需求 调度 等 ， 对 Storm 的 资源 分 配 和 任务 调度 做 了 优化 。 0 
Chakraborty 等 人 提出 了 一 种 基于 优先 级 的 调度 算法 , 解决 集 。 3 。 至 了 最 佳 并 1 度 的 商 心 调度 算法 


群 资源 不 足 时 ， 可 能 会 导致 性 能 下 降 、 甚 至 完全 饿 死 具 有 高 业 当 Topology 任务 提交 到 Storm 到 集群 中 后 ，Nimbus 节点 
务 优先 级 的 拓扑 任务 的 问题 。Xin 等 人 0 提出 一 种 基于 分 布 式 ”对 其 进行 调度 分 配 ， 包 括 将 Executor 分 配 到 Worker 上 ， 再 将 
QoS (quality of service) 感知 的 调度 算法 ， 使 得 Storm 适用 于 ”Worker 分 配 到 WorkerNode 上 ， 其 中 Excutor 之 间 的 通信 分 为 
地 理 信息 系统 的 处 理 。 进程 内 通信 ， 进 程 间 通信 和 节点 间 通 信 。 

以 上 研究 主要 从 内 部 通信 开销 和 资源 利用 率 两 方面 进行 优 在 首次 提交 Topology 时 ， 以 Storm 的 默认 的 调度 算法 进行 调 
化 ,， 均 依赖 用 户 配置 的 Topology 的 并 行 度 ， 当 用 户 配置 不 合理 度 ， 同 时 对 该 Topoloyg 进行 监控 ,并 将 获取 的 周期 内 实时 运行 
时 ， 现 有 优化 调度 方案 并 不 能 取得 很 好 的 优化 效果 ， 并 可 能 对 ”参数 存 入 数据 库 。 通 过 对 集群 进行 实时 监控 ， 在 首次 提交 运行 
集群 处 理性 能 造成 更 严重 的 影响 ， 本 文 提 出 了 一 种 基 最 佳 并 行 周期 7 后 或 超载 时 ， 触 发 新 的 调度 。 


度 的 贪心 调度 算法 , 在 兼顾 到 网 络 开销 的 同时 , 提升 处 理 效率 。 重新 调度 时 根据 获取 到 Topology 的 运行 数据 ， 求 解 
Topology 中 各 组 件 的 最 佳 并 行 度 ， 算 法 伪 代 码 表 2。 然 后 对 


2 ”相关 描述 和 相关 定义 


行 度 调整 后 的 Topology 任务 进行 分 配 , 采用 贪心 策略 将 通信 频 
在 Storm 中 数据 流 单位 为 Tuple。 率 高 的 Eexecutor 尽量 分 配 到 集群 中 的 同一 节点 上 ， 算 法 伪 代 
定义 1 一 个 Tuple 所 需 的 处 理 时 间 tw 定义 为 码 表 3。 算 法 用 到 的 相关 符号 参照 表 1。 
trple = frec + fguene + fproe + fgenerate (1) ”3.1 组 件 最 佳 并 行 度 

其 中 : tiw 表示 Tuple 由 发 送 节 点 到 处 理 节点 所 需 的 传输 时 间 ; Storm 中 数据 流 分 组 包括 : 
twee 表示 Tuple 在 处 理 节点 需要 排队 等 待 的 时 间 ; te 表示 Shuffle Grouping: 随 机 分 组 , 尽量 均匀 分 布 到 下 游 Bolt 中 ; 
Tuple 的 逻辑 处 理 时 间 ; tsererar 表示 Tuple 处 理 完 后 形成 新 的 Fields Grouping: 按 字段 分 组 ， 按 数据 中 Field 值 进行 分 组 ， 
Tuple 的 时 间 。 将 相同 Field 值 的 Tuple 被 发 送 到 同一 Task; 
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All Grouping: 广 播 分 组 ， 
一 个 Bolt 处 理 ; 

Global Grouping: 全 局 分 组 ， 所 有 Tuple 被 分 配 到 一 个 Bolt 
中 的 一 个 Task 中 ， 

None Grouping: 不 分 组 ， 


每 一 个 Tuple 都 会 复制 一 份 给 每 


目前 等 同 于 Shuffle Grouping; 
Tuple 的 发 射 单元 直接 决定 


Direct Grouping: 指 定 分 组 ， 
将 Tuple 发 射 给 哪个 Bolt; 

其 中 以 Global Grouping 为 分 组 方式 的 组 件 不 需要 进行 并 
行 度 的 调整 ， 规 定 该 组 件 的 并 行 度 为 1。 


表 1 符号 参考 表 

符号 含意 

@i {executori} (1=1,2,3,,,n) 

wi {workernodei} (i=1,2,3,,,n) 

br {boltx}(k=1,2,3,,,n):Topology 中 第 k 个 Bolt 组 件 。 
LE: {load-executori}(i=1,2,3,,,n):executor 的 负载 
CE {CPU-executori}(i=1,2,3,,,n):executor 的 CPU 使 用 率 
Ri {frateii}(Gij=12,3,,n) 相 互通 信 的 ei 与 gj 发 送 tuple 速率 


了 采集 周 
{lo0ad-workernodei}(i=1,2,3,,,n): 集 群 中 节点 workernodei 的 
负载 ， 即 CPU 的 使 


{number-executor} :Topology 中 spout 组 件 的 并 行 度 


和 


LWN: 


Nexecuior 


{number-executork}(k=1,2,3,,,n): Topology 中 第 k 个 组 件 的 


k=2 时 ， 


Nk,exrecuor) 并 行 度 ，k=1 时 ， 表 示 Topology 中 spout 组 件 ， 
表示 第 一 个 bolt 组 件 


AF: {assign-executori}(i=1,2,3,,,n): 对 应 ei 的 调度 方案 
{executor-communicationi}(i=1,2,3,,,n): 对 应 ei 的 通信 量 ， 
EC: 
包括 6 接受 和 发 送 的 Tuple 数 


3.1.1 Spout 组 件 并 行 度 

在 一 个 时 间 周 期 开始 时 ， 设 上 一 周期 Spout 未 处 理 完 的 数 
据 量 为 Datavwme ， 外 部 数据 到 达 速 率 为 we ， 组 件 Spout 的 数 
据 处 理 速率 为 Neeenw*Voe ， 其 中 Neeeuor 是 组 件 Spout 的 


Executor 并 行 度 ， Vpre 是 Executor 的 数据 处 理 速率 。 为 使 得 到 
达 Spout 组 件 的 数据 都 能 够 被 及 时 处 理 ， 因 此 有 : 
Datasurplus +V.,,. *T, < Nexecutor *V,,.*T (5) 
式 (4) (5) 得 
Nexecitor <| Palasurplus + Vwe *T . 


Ve 
式 〈4) 可 知 增 大 Neweewor 能 使 得 TF 的 值 变 小 ， 降 低 Spout 组 
牛 的 繁忙 程度 ,因此 对 式 〈6) 中 求 得 的 Executor 并 行 度 向 上 取 
整 ， 求 得 在 外 部 数据 到 达 速 率 为 Vom 时 Spout 组 件 的 最 佳 并 行 
度 。 式 (6) 中 Yo 和 Voroe 可 以 通过 监控 Spout 组 件 然 后 取 平 均值 
获得 ， 其 中 周期 7 的 选择 也 需要 进行 考虑 ，Storm 中 进行 一 次 
Topology 的 调整 需要 一 定 的 时 间 ， 因 此 ， 这 里 的 时 间 周 期 五 不 
应 过 短 ， 但 也 不 能 太 长 ， 周 期 7; 太 短 ， 使 得 调度 过 于 频繁 进而 


Ba 
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能 安 萍 ， 等 : Storm 下 基于 最 佳 并 行 度 的 贪心 调度 算 ; 


增 大 处 理 时 延 ， 而 周期 下 太 长 会 导致 无 法 及 时 对 外 部 变化 
响应 ， 此 处 到 通过 多 次 实验 取得 经 验 值 。 

3.1.2 Bolt 组 件 并 行 度 

户 提交 的 Topology 任务 中 ， 前 一 个 组 件 输出 的 Tup 


进行 


le 数 


是 后 一 个 组 件 接受 的 Tuple 数 。 定 义 第 k 个 组 件 中 Executor 的 
Tuple 处 理 速度 为 Vre ， 则 组 件 k 的 Tuple 处 理 速 率 为 


Noexeewon Vproe ， 其 中 Nu.eeewor 是 该 组 件 的 Executor 数量 
前 一 组 件 ， 即 第 k-1 个 组 件 的 Executor 的 Tuple 产生 速 
Veererae ， 则 该 组 件 的 Tuple 产生 速度 为 Wu -1 ereewor) * Veenerate 
中 Wu -ieeeuon 是 该 组 件 Executor 的 并 行 度 。 当 后 一 组 件 能 
前 一 组 件 发 送 的 Tuple 数 时 ， 即 前 一 组 件 产生 的 Tuple 将 
被 排队 ， 如 式 (7) 所 示 。 


(7) 得 


式 (4) 


件 的 繁忙 程度 ， 因此 对 式 (8) 中 求 得 的 Executor 并 行 度 向 

整 ， 求 得 在 后 一 组 件 能 处 理 前 一 组 件 发 送 Tuple 速率 下 第 

组 件 的 最 佳 并 行 度 。 式 (8) 中 Veereror 和 ee 的 值 可 通过 实 

控 然 后 取 平 均值 获得 。 将 式 (6) 

中 第 一 个 Bolt 组 件 的 

Topology 中 其 余 Bolt 组 件 的 最 佳 并 行 度 。 
算法 1 求解 组 件 最 佳 并 行 度 算法 


输入 : Topology 信息 {ei, ex , , en} 、 


Nexecutor 、 N (k, executor) ， 周期 


fj, tuple) 。 


输 


并 行 度 Newecwor ， 和 各 Bolt 组 件 的 最 但 


出 : Spout 组 件 的 最 佳 


N (eeentor) s 
1. 获取 Spout 组 件 中 Executor 的 数据 平均 处 理 速 率 。 
2. 求解 在 下 一 周期 需要 处 理 的 数据 量 Peerme + wo? 。 
3. 根据 式 (6) 求 得 Topology 中 Spout 组 件 的 最 佳 并 行 度 Nerecwor 。 
4. 从 第 一 个 Bolt 组 件 
5. 如 果 bx 的 分 组 方式 为 Grobal grouping 则 跳 至 (7) 。 
6. 根据 式 (8) 求 得 Topology 中 第 k 个 Bolt 组 件 的 最 佳 } 
7. 将 br 的 最 佳 并 行 度 设置 为 : Nexecuorn) = 二 1 。 
8. 选取 bx +1 ， 重 复 步 骤 (5) 、(6) ， 直 到 求 得 所 有 Bolt 组 件 的 最 伯 
9. 输出 求解 到 的 Nexeewor 、 Nereeuor) ， 算 法 结束 。 
3.2 ”基于 贪心 策略 的 任务 调度 
采集 周期 内， 相互 通信 的 Executor 之 间 的 Tuple 传 
率 Ri; 、Executor 的 CPU 使 用 率 CE; 和 集群 中 各 节点 的 
LWN: ， 按 Ri; 进行 降序 排列 。 


凡 Spou 


式 (4) 知 增 大 Naanor 会 使 TF 的 值 变 小 , 降低 Bolt 组 


出 
六 


。 其 
度 为 
， 其 
处 理 


不 会 


上 取 
长 个 


时 监 


有 入 式 (8) ， 求 得 Topology 
行 度 Ne wu ， 然 后 同 理 选 代 出 


T 内 


opology 的 运行 数据 Dataswpas 、Veome 、Vproc 、Vgenerate 、N (Gj,nple) 、 


局 
汝 


始 ， 即 k=2， 依 次 求解 Bolt 组 件 的 并 行 度 。 


F 行 度 NN (x,executor) 。 


并行 


输 速 
负载 


根据 求 得 的 最 佳 并 行 度 对 Topology 进行 调整 , 并 采 / 


信心 


策略 进行 分 配 调度 , 如 果菜 个 组 件 的 Executor 并 行 度 需要 降低 ， 
先 对 该 组 件 中 的 Executor 按 EC; 进行 降序 排列 ， 然 后 去 掉 EC 
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低 的 Executor， 同 时 去 掉 和 该 
Rei; 和 Ri; ， 当 要 去 掉 @; 时 ， 则 应 同时 删除 Re,: 和 RR 
大 Topology 中 某 个 组 件 的 
Executor 的 通信 速率 作为 该 新 添 力 
设 存在 Re,; 和 Ri,; ， 如 添加 en ， 贝 


关联 关系 。 


采用 仿 
频率 高 的 Executor 分 配 到 
的 网 络 通信 开销 ， 但 太 多 的 Executor 分 配 到 同一 WorkerNode 


容易 造成 该 节点 的 超载 , 使 得 该 节点 处 理 效率 降低 , Tuple 处 理 


该 Executor i 


梦 策 略 对 Topology 进行 分 配 调度 时 , 尽 可 能 将 通信 
集群 中 的 同一 节点 


行 度 ， 取 该 组 件 中 EC 低 的 
的 Executor 的 通信 速率 ， 假 
1 需 添 加 Ri.m 和 Rm,j 作为 新 的 


通信 的 及 ， 假 如 存在 


i。 如 要 增 


上 ， 最 小 化 节点 间 


时 延 增加 。 因 此 ， 在 减少 节点 间 通 信 量 和 节点 负载 之 间 会 有 一 


个 权衡 。 


思想 是 : 


1、 采集 周期 了 内 运行 数据 , 将 相互 通信 的 Executor 按 Ri 


进行 降序 排列 。 

2、 采 集 周 期 T 内 运行 数据 ， 对 集群 中 各 节点 按 平均 CPU 
使 用 率 进 行 降 序 排列 。 

3、 采 集 周期 T 内 Executor 的 平均 CPU 使 用 率 , 通过 JavaAPI 
中 的 getThreadCPUTime(threadID) 方 法 来 获取 每 个 线程 的 CPU 
使 用 率 。 


4、 循 环 处 到 


Executor， 直 到 所 
通信 频率 高 的 we 、@ ,然后 对 et 、8 进行 分 配 。 采 


的 Executor 分 配 完 。 选 择 


贪心 策略 ， 


当 # ,6 都 未 被 分 配 时 ， 选 取 集群 中 负载 最 低 的 节点 wi ， 然 后 
尝试 将 ei 、8 放 到 wi 上 ,如果 wi 不 超载 , 则 e: 、% 分 配 成 功 。 


否则 从 集群 中 选取 新 


的 负载 最 低 的 节点 必 ， 然 


后 尝试 将 e 、6 


分 配 到 节点 w 上 ， 直 到 e 、@ 分 配 成 功 。 当 ea 、@ 中 有 一 个 
Executor 被 分 配 了 , 假设 e 已 被 分 配 到 节点 
试 将 6 分 配 到 e 所 在 的 节点 w 上 ， 如 果 wi 不 超载 ， 则 


此 时 尝 


6 分 配 成 功 ， 


否则 


重新 


从 集群 中 选取 新 的 负 


然后 尝试 将 @ 分 配 到 节点 小 ， 直 到 成 功 。 


5、 调 度 中 满足 如 
在 后 
Worker 中 ， 且 保证 
本 文 暂 不 讨论 Executor，Task 数量 


一 个 


一 个 节点 上 将 


下 约定 : 


同一 个 Topology 的 
E 节 点 不 会 超载 。 


法 2 ”基于 最 佳 并 行 度 


Nexecuor 


Vopr 


输 昌 


oc 、 Vgenerate 、 


合 入 : 集群 节点 运行 数据 LWN: 、AE:i， 
、MV (executor) ,周期 T 内 Topology 的 运行 数据 Dataswrpns 
N Gj,wuple) 、 


b: AFE:, i= 


1. 


2. 根据 表 2 给 
件 的 最 佳 并 行 度 Neuecuor ， 
Ph 对 应 的 组 件 并 行 
将 相互 通信 的 Executor 按 Ri,j 数 


3. 将 Topology 上 


4 这 


5. 


1 算 Ri,j ， 


将 集群 


本 
台 调 度 。/* 在 周期 T 后 采 
当 集 群 中 的 节点 出 现 超载 或 Executor 出 现 超载 时 ， 
的 求解 组 件 最 佳 并 


上 算 LWNi ， 


的 贪心 调度 算法 


fj, tuple) 。 


n， 即 {ei, Bs, By sy en} 对 


Topology 信息 {ei, ex ，， 


载 最 小 的 节点 W ， 


Executor 放 入 到 同 


配置 优化 问题 


en 、 


应 的 分 配方 案 。 


本 文 调度 算法 进 


行 重新 调度 , 调度 过 后 ， 


下 
HH 


行 度 算法 求 得 
件 的 最 佳 并 行 
度 配置 为 Nexeew 


Bolt 组 


再 触发 新 的 调度 */ 


Topology 中 Spout 组 


度 N (x,executor) 。 


tor ~ N (Kk, executor) o 


值 大 小 降序 排列 。 


FP 节 点 按 LWINi 数值 大 小 降序 排列 。 


wi 而 8@ 还 未 被 分 配 ， 


、VYcome 、 


合作 期 刊 ， 


能 安 萍 ， 等 : Storm G0 YA 的 贪心 调度 
6. 获取 集群 中 负载 最 小 的 LWINi 节点 。 

7. 获取 通信 频率 最 高 的 Ri,j; 。 

8. 如 果 在 Ri.; 中 ei 和 @ 都 未 被 分 配 ， 则 跳 到 (9) ， 
9. 如 果 ei 和 @ 都 能 分 配 到 元 WNi 节点 且 不 超载 ， 则 将 ei 和 6 分配 到 
LWANi 节点， 并 将 分 配方 案 记 录 到 AEi; 和 AEk; ， 和 否则 跳 到 (10) 。 

10. 重新 获取 集群 中 最 新 的 负载 最 小 的 LWANi+1 节点 。 

11. 将 @ 和 分配 到 节点 LWANi+1，, 并 将 分 配方 案 记 录 到 AE; 和 Aki 。 
12. 如 果 e 被 分 配 了 ， 6 还 未 被 分 配 ， 则 跳 到 (13), 否则 跳 到 (15) 。 

I 果 @ 能 被 分 配 到 ei 所 在 的 节点 且 不 超载 ， 则 将 @ 分 配 到 e 所 在 
; 节点 ， 并 将 分 配方 案 记 录 到 AE&; ， 和 否则 跳 到 (14) 。 
14. 重新 获取 集群 中 新 的 负载 最 小 的 LWNi+t1 节点 ， 将 8@ 分配 到 
LWNi+1 节点， 并 记录 到 AEki 中 ， 然 后 跳 到 (17)。 
15. 如 果 ei 能 被 分 配 到 @ 所 在 的 节点 且 不 超载 ， 则 将 e 分 配 到 @ 所 在 
的 LWINi 节点， 并 将 分 配方 案 记 录 到 AE; ， 否 则 跳 到 (16) 。 
16. 重新 获取 集群 中 新 的 负载 最 小 的 LWNi+t1 节点 ， 将 @i 分 配 到 


否则 跳 到 (12) 。 


LWANi+1 节点 ， 并 将 分 配方 案 记 录 到 AE; 中 。 

17. 如 果 {ev ez, es ,, er 中 还 有 未 被 分 配 的 executor， 则 跳 至 (7)， 直 到 
所 有 的 executor 被 分 配 。 

18. {ev ez, es , , en} 被 分 配 完 , 输出 分 配方 案 AE; ， 算 法 结束 。 


4 ”实验 与 结果 


使 用 Hyperic 的 SIGAR (System Information Gather And 
Reporter) 来 读 取 集群 中 机 器 的 实时 状态 ,如 CPU、 内 存 。 
Storm 提供 的 Thrift API 采集 Topology 的 运行 数据 ， 并 将 自己 
实现 的 监控 进程 以 Deamon 进程 方式 在 后 台 运 行 。 

实验 中 利用 Storm 提供 的 Pluggable Scheduler05 来 实 
度 算法 。 
实验 搭建 了 三 台 物 理 机 构成 的 同 构 集群 ， 每 个 节点 的 有 具体 
硬件 配置 4 核 2.8 GHz CPU，4 GB 内 存 ，50 GB 硬盘 和 10 
Gbit 网 卡 。 每 个 节点 运行 Ubuntu 12.04 操作 系统 。 其 中 一 个 作 
为 主 节点 运行 Nimbus 进程 ， 负 责 资源 分 配 和 任务 调度 ; 从 节 
点 负责 接受 Nimbus 分 配 的 任务 ,启动 和 停止 属于 自己 管理 的 
同时 还 搭建 了 Zookeeperl9 集群 ,它们 始终 处 于 


士 
结合 


岗 本 


| 


Xi 


Worker 进程 。 


运行 状态 。 

实验 中 使 用 经 典 的 WordCount 应 用 ，Topology 包括 一 个 
Spout 和 两 个 Bolt，Spout 从 Redis 中 读 取 数 据 ， 形 成 Tuple 发 
送 给 后 面 的 Bolt， 第 一 个 Bolt 对 Tuple 中 的 行 记录 进行 分 词 ， 
然后 形成 新 的 Tuple 发 送 给 后 继 Bolt， 第 二 个 Bolt 用 来 对 词 进 
行 统计 0 。 

1) 实 验 1 以 一 定 速率 向 Redis 中 写 入 数据 , 然后 Spout 从 


Redis 中 读 取 数据 。 在 将 Topology 提交 到 集群 运行 后 ， 本 文 调 
度 算法 在 周期 T 后 会 对 Topology 进行 重新 调度 ， 统 计 从 第 10 
分 钟 开始 到 20 分 钟 的 的 运行 数据 ， 并 多 次 实验 取 平 均值 。 

1 显示 的 是 默认 (defaulb 调 度 算 法 、 线 上 调度 (online) 算 
法 、 热 边 调度 算法 和 本 文 调度 算法 之 间 处 理 时 延 对 比 。online 和 
热 边 调度 算法 与 默认 调度 算法 相 比 ， 主 要 优化 了 集群 节点 间 的 
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网 络 通信 开销 ， 降 低 了 处 理 时 延 。 本 文 调度 算法 相对 online 调 
度 算 法 和 热 边 调度 算法 是 基于 Topology 的 最 佳 并 行 度 来 进行 
调度 ， 采 用 贪心 策略 进行 任务 调度 ， 最 大 化 的 减少 了 节点 间 的 
网 络 通信 ， 实 验 表 明 本 文 调度 算法 比 默 认 调 度 算 法 在 整体 处 理 
时 延 上 降低 了 约 25%， 比 online 和 热 边 调度 算法 在 整体 处 理 时 
延 上 降低 了 约 10%。 

图 2 显示 的 是 4 种 调度 算法 之 间 吐 出 量 的 差别 ， 与 默认 调 
法 、 线 上 调度 算法 和 热 边 调度 算法 相 比 本 文 调 度 算 法 吐出 


相 当 
荧 
DE 


一 一 default 


处 理 时 延 (ms) 


1 - - - - : : - - - - 
600 650 700 750 800 850 900 950 1000 1050 1100 1150 1200 
时 间 (s) 


图 1 处 理 时 延 对 比 


x10 
*— default 
16|- *—online 
Fp - - 热 边 调度 J 
- 人 一 基于 最 优 并 行 度 的 贪心 调度 
1.4 上 |- 
一 一 i 二 
三 13|- - 
E 四 = i a 
二 i — 一 
要 
二 
啊 141|- 禾 关头 一 一天 闪 xx 
1 
志 
1 
0.9 上 | 
0.8 上 | 
0.7 上 r r R a 上 r 
11 12 13 14 15 16 籽 18 19 20 
时 间 (minute) 
图 2 吞吐 量 对 比 


将 default、online 和 热 边 调度 算法 中 Topology 的 并 行 度 分 
1 配置 为 本 文 算法 得 到 的 最 佳 并 行 度 , 再 分 别提 交 Topology 任 
务 ， 运 行 结果 图 3 和 图 4。 由 图 3 知 ， 在 Topology 配置 为 最 佳 
行 度 下 默认 调度 算法 、 线 上 调度 算法 和 热 边 调度 算法 的 处 理 
时 延 整体 有 所 下 降 ， 更 加 接近 本 文 调度 算法 ， 同 时 看 出 基于 最 
佳 并 行 度 的 贪心 调度 算法 在 时 效 性 上 最 佳 。 

图 4 显示 的 是 Topology 任务 被 分 配 到 的 节点 的 平均 CPU 
使 用 率 。 实 验 结果 表明 基于 最 佳 并 行 度 的 贪心 调度 比 线 上 调度 
和 热 边 调度 的 节点 平均 CPU 使 用 率 高 36% 左 右 ， 比 默认 调度 
的 节点 平均 CPU 使 用 率 高 45% 左 右 。 这 是 由 于 在 默认 调度 时 
采用 轮 询 的 方式 进行 任务 调度 ， 会 将 任务 平均 地 分 配 到 集群 中 
的 可 用 节点 上 ， 而 线 上 调度 和 热 边 调度 是 每 次 从 集群 中 去 选取 
负载 最 低 的 节点 进行 分 配 ， 而 本 文 算法 采用 贪心 策略 在 不 超过 
节点 负载 的 情况 下 会 尽 可 能 的 将 相互 通信 频率 高 的 Executor 分 


江 


能 


安 萍 ， 


aXiv 合 作 期 和 


Chi 
4, som Eh a YE 法 


配 到 同一 节点 上 ， 这样 能 减少 Topology 任务 分 配 的 节点 ,提高 


Topolgy 任务 所 分 配 节 点 的 CPU 使 用 率 ， 从 而 使 得 节点 的 资源 
利用 率 更 高 。 
2.5F E E E 5 
一 人 一 default 
* 一 online 
-基于 最 优 并 行 度 的 贪心 调度 
2 时 
赎 
可 
名 
1.57 eg, Ty Es ww | 
boo 650 700 750 800 850 g00 950 1000 1050 1100 1150 1200 
时 间 (s) 
图 3 ”处理 时 延 对 比 
35 T T T T 
30r ~ 
FE 
地 20r 
把 
a 
名 15 上 
全 
斗 
10r 
与 上 


b) 实 验 2 不 同 
实验 中 包括 五 纪 


和 本 文 调 


N 
default 


online 戏 边 调度 


讨 


文 调 


洱 


图 4 


平均 CPU 使 用 率 对 比 


数据 速率 下 的 平均 处 理 时 延 
日 对 比 实 验 ， 分 别 以 1000 条 /s、2000 条 /s、 
3000 条 /s、4000 条 /s、5000 条 /s 的 速率 向 Redis 中 写 入 数据 ， 
然后 Spout 从 Redis 中 读 取 数据 。 图 5 显示 的 是 默认 调度 算法 


度 算法 分 别 在 不 同 数据 输入 速率 下 的 平均 处 理 时 延 。 


处 理 时 延 (ms) 
ID 
a 


Cy default 


1000 条 i/s 


2000 条 /s 3000 条 /s 4000 条 js 5000 条 /s 


5 处 理 时 延 对 比 
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Topology 中 后 端 数 据 处 理 组 件 Bolt 的 处 理 速度 较 慢 , 当 写 
入 数据 速率 较 大 时 ， 如 果 Topology 并 行 度 配 置 不 当 , 默认 调度 
算法 容易 使 数据 发 送 端 发 送 的 数据 产生 累积 ， 造 成 处 理 时 延 的 
增 大 。 实 验 结果 表明 本 文 调度 算法 比 默认 调度 算法 时 效 性 更 好 ， 
处 理 时 延 更 低 ， 并 且 在 处 理 不 同 速率 数据 流 时 更 稳定 ， 效 果 更 


tt 


5 


5 ”结束 语 


本 文 提出 的 基于 最 佳 并 行 的 贪心 调度 算法 ， 首 先 考 虑 了 
Topology 中 组 件 并 行 度 对 调度 的 影响 ,然后 求解 出 最 佳 并 行 度 ， 
在 最 佳 并 行 度 上 采用 贪心 策略 进行 调度 ， 和 默认 调度 算法 、 
线 上 调度 算法 、 热 边 调 度 算法 相 比 ， 本 文 改进 的 调度 算法 ， 在 
整体 性 能 上 有 所 提升 。 在 采用 贪心 策略 进行 调度 时 ， 由 于 最 小 
化 节点 间 的 网 络 通信 ， 可 能 会 出 现 负 载 不 均衡 的 现象 。 下 一 步 
的 工作 重点 将 基于 本 文 算法 关注 调度 过 程 中 集群 的 负载 均衡 问 
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